dancegrpo

香港大学&字节跳动联合推出：DanceGRPO！视觉生成技术新突破！

Reinforcement Learning (RL) 今天已经成为了微调生成式模型的一个重要的方法，现有的方法比如 DDPO 和 DPOK 存在一些固有的限制：当缩放到更大，更加多样化的 Prompt 集时，较难稳定优化，会限制其实用性。